无监督的视频对象细分(VOS)旨在识别视频中主要前景的轮廓,而没有任何先验知识。但是,以前的方法并未完全使用时空上下文,也无法实时解决这项具有挑战性的任务。这促使我们从整体视图中开发出有效的hort hort T emporal t Ttention网络(称为LSTA),以实现无监督的VOS任务。特定于LSTA由两个主导模块组成,即长时间记忆和短暂的时间关注。前者捕获了过去框架和当前框架的长期全局像素关系,该框架通过编码外观模式不断地呈现对象。同时,后者揭示了一个附近框架和当前框架的短期局部像素关系,该框架通过编码运动模式来模拟移动对象。为加速推断,采用了有效的投影和基于局部性的滑动窗口,以分别实现两个光模块的几乎线性时间复杂性。对几个基准测试的广泛实证研究表明,提出的方法具有很高的效率。
![arxiv:2309.11707V1 [CS.CV] 21 Sep 2023PDF文件第1页](/bimg/a/a27a5223e7d29c876d9ad0c83856ec2fdd79adb9.webp)
![arxiv:2309.11707V1 [CS.CV] 21 Sep 2023PDF文件第2页](/bimg/7/7a4071ab27d045e67bb9a24e85c097bb1a77a2d6.webp)
![arxiv:2309.11707V1 [CS.CV] 21 Sep 2023PDF文件第3页](/bimg/2/256b97778397c316024e459f15e52b04a04d4dd4.webp)
![arxiv:2309.11707V1 [CS.CV] 21 Sep 2023PDF文件第4页](/bimg/a/a76325a243a3132ca3bd5aaef2d5bd58023a2b28.webp)
![arxiv:2309.11707V1 [CS.CV] 21 Sep 2023PDF文件第5页](/bimg/7/7ea2982631c1c83b89364975463d700794641954.webp)
